进化树专题（四）| 进化模型选择的那些事儿

Original 小林凌恩生物 2023-06-15

收录于合集

#实用工具 86 个

#知识速享 307 个

在文章投稿时，经常受到编辑直击灵魂的拷问：

“please explain how were amino-acid substitution models chosen for tree construction ?”

“What nucleotide substitution model was selected for the ML analyses ?”

………

你也曾感受过这样的痛苦吗？

今天，我们就是要把您从这样的苦楚中解脱出来，说说关于进化模型选择的那些事儿~

系统发育分析中，最大似然法（ML）和贝叶斯法（BI）是对替换模型非常敏感的两种算法。对于一些新手而言，经常使用默认参数而忽略了模型选择，从而导致建树结果不理想。文章投稿后，也经常为此返修，耗时耗力耗神。因此，建树模型的选择至关重要，我们开一个专题对此做简单说明，主要介绍2种软件：jModeltest是进行核苷酸替换模型的选择，输入的是比对好的核酸序列；ProtTest是进行氨基酸替换模型的选择，输入的是比对好的基因蛋白序列。

jModelTest

jModelTest 2.1.10（https://github.com/ddarriba/jmodeltest2）是个跨平台的Java程序，通过内置的PhyML等程序计算模型及相关参数，操作简单。支持命令行形式和图形界面形式，依据个人喜好选择。

命令行操作示例：

参数说明 ---

-i	include models with a proportion invariable sites
-f	include models with unequals base frecuencies
-g	include models with rate variation among sites and number of categories
AIC	赤池信息标准，Akaike Information Criterion
BIC	贝叶斯信息标准，Bayesian Information Criterion
AICc	Corrected Akaike Information Criterion
DT	决策理论，decision theory performance-based score
-tr	线程数，numberOfThreads
-lnL	似然比检验，negative log likelihod
delta	AIC/BIC/AICc/DT difference

运行结束后，在 jmodeltest.out 最后会对每个统计标准的最优模型做汇总：

AIC、BIC、AICc、DT的最优模型是GTR+I+G，后续建树时选用该模型即可。

图形化界面运行：

jModelTest支持GUI图形界面形式，进入软件安装路径，运行java程序包或shell命令，即可打开图形化界面：

导入DNA比对序列，支持3种比对格式 phylip / fasta / nexus：

选择Analysis菜单，先进行Compute Likelihood scores，然后依次进行AIC、BIC、DT计算，默认参数。计算结束后根据 delta值挑选最优模型，值越小越好。

参考文献：

Darriba D, Taboada GL, Doallo R, Posada D. 2012. jModelTest 2: more models, new heuristics and parallel computing. Nature Methods 9(8), 772.

Guindon S, Gascuel O. 2003. A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst Biol. 52: 696-704.

ProtTest

ProtTest 3.4（https://github.com/ddarriba/prottest3）处理的是基因蛋白序列，与jModelTest类似，ProtTest也是通过 PhyML 对进化树和模型参数进行最大似然估计，然后计算 AIC、BIC 分值或 DT 来寻找最佳模型。

命令行操作示例：

参数的说明同jModelTest，运行结束后，在 prottest.out 对每个统计标准下的模型做汇总，选择delta、-lnL最小的模型即可：

图形化界面运行：

进入程序所在的目录运行程序以启动图形化界面，

导入比对好的基因蛋白序列，常用的是 fasta 和 phylip格式：

选择Analysis菜单，依次进行Compute Likelihood scores和氨基酸频率，然后根据计算结果选择最优进化模型。

参考文献：

Darriba D, Taboada GL, Doallo R, Posada D. ProtTest 3: fast selection of best-fit models of protein evolution. Bioinformatics, 27:1164-1165, 2011.

Guindon S, Gascuel O. 2003. A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst Biol. 52: 696-704.

凌恩生物成立于2014年，专注组学技术在科研领域的应用与研究。公司成立以来，技术团队参与的项目成果成功发表在《Nature》《Cell》《PNAS》等国际顶端学术期刊。

秉承“以客户需求为本，为客户创造价值”的服务宗旨；以高品质、高效率的技术服务，用心打造凌恩品牌，助力您的成功。

警察殴打打人学生，舆论撕裂的背后

大摩宏观策略谈：2025中美变局展望

假设，你遇到麦琳怎么办？

董事长两口子不干了，至暗时刻谁是白衣骑士

2024年心理咨询师报名通道开启！可考心理证书，无需辞职，名额有限，11月30日截止报名！！！

进化树专题（四）| 进化模型选择的那些事儿

您可能也对以下帖子感兴趣

警察殴打打人学生，舆论撕裂的背后

大摩宏观策略谈：2025中美变局展望

假设，你遇到麦琳怎么办？

董事长两口子不干了，至暗时刻谁是白衣骑士

2024年心理咨询师报名通道开启！可考心理证书，无需辞职，名额有限，11月30日截止报名！！！

生成图片，分享到微信朋友圈

进化树专题（四）| 进化模型选择的那些事儿

您可能也对以下帖子感兴趣